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基于 文本 分 析 的 故障 序列 模式 挖掘 算法 
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摘 要 : 针对 结构 化 程度 差 、 表 达 形 式 各 异 的 文本 数据 ， 提 出 了 一 种 基于 文本 信息 的 故障 序列 模式 挖 据 算 法 ， 用 以 发 
据 故 障 之 间 的 时 序 关系 。 为 从 文本 记录 的 故障 信息 中 挖 据 故 障 规律 ， 首 先 将 文本 信息 向 量化 ， 对 故障 文本 信息 进行 相 
似 度 衡量 , 将 表达 相同 意义 的 故障 归 为 一 类 。 在 此 基础 上 根据 故障 特性 ,提出 最 大 窗口 阀 值 、 最 小 共 现 度 阀 值 的 概念 ， 
构建 故障 序列 模式 挖 据 算 法 框架 。 最 后 对 某 型 飞机 文本 故障 信息 进行 序列 模式 挖 据 ， 找 出 了 正确 的 故障 序列 关系 。 实 
例 验 证 了 所 提 算 法 是 正确 有 效 的 。 
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Failures sequence pattern mining algorithm based on text analysis 


Chang Wenbing, Yuan Xinglong, Zhou Shenghan', Li Lei 
(School of Reliability & System Engineering, Beihang University, Beijing 100191, China) 


Abstract: For textual data with poor structured degree and different expression forms, a failures sequence pattern mining 
algorithm based on text information is proposed to explore the time sequence relationship between failures. In order to mine the 
failures rules from the text, firstly, quantify the text information, measure the similarity of the failures information, and classify 
the failures that express the same meaning into one class. On this basis, we propose the concept of maximum window threshold 
and minimum concurrence threshold based on failures characteristics, and build a mining algorithm framework forfailures 
sequence pattern. Finally, extract sequential failures patterns from a certain aircraft, and find out the correct faliures sequence 
relationship. The example shows that the proposed algorithm is correct and effective. 
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分 词 处 理 。 在 分 完 词 的 基础 上 ， 要 把 文本 信息 用 数学 语言 表达 
出 来 才能 进行 下 一 步 的 相似 度 衡量 。 郑 文 超 等 人 中 提出 了 一 种 
飞机 作为 大 型 的 复杂 装备 系统 ， 服 役 周 期 长 ， 飞 行 环境 复 ”中文 分 词 算 法 ， 用 来 将 中 文 文本 分 割 成 独立 的 词语 。 再 对 处 理 
杂 有 恶劣， 导致 飞机 的 故障 发 生 频 繁 ， 原 因 复 杂 。 在 长 期 的 维 人 后 的 语 料 使 用 word2vec 工具 集 , 应 用 深度 神经 网 络 算法 , 转换 
保障 过 程 中 积累 了 大 量 的 故障 文本 信息 ， 对 故障 分 析 和 维修 决 ”为 对 应 的 词 向 量 。 张 志 昌 等 人 中 提出 一 种 中 文 词汇 蕴涵 关系 识 
策 具有 重大 意义 ， 有 待 进行 更 深层 次 的 挖掘 。 目 前 ， 还 没有 针 别 方法 ， 利 用 词 向 量 技术 ,设计 各 种 基于 词 向 量 的 分 类 特征 , 训 
对 文本 信息 应 用 序列 模式 挖掘 识别 故障 之 间 的 时 间 关 系 的 研究 。 练 得 到 可 用 于 名 词 词汇 蕴涵 关系 分 类 的 支持 向 量 机 分 类 模型 . 
本 文 第 一 部 分 是 故障 文本 相似 度 衡量 ， 由 于 文本 记录 的 特 。 周 练 外 研究 了 word2vec 模型 的 原理 及 应 用 , 分 析 了 词 向 量 的 特 
性 ， 相 同 信息 的 表达 形式 干 差 万 别 ， 通 过 文本 相似 度 衡量 把 相 点 。 唐 明 等 人 四 提出 了 一 种 基于 word2Vec 模型 的 文档 向 量 表示 ， 
同意 思 的 文本 划 归 为 一 类 。 首 先 要 对 故障 本 文 进行 预 处 理 , 使 。 利用 TF-IDF 算法 计算 每 篇 文档 中 词 的 权 习 
用 语言 模型 进行 自然 语言 处 理 是 建立 在 词 的 基础 上 的 ， 由 于 中 ” 词 向 量 生成 文档 向 量 。 现 有 的 研究 大 都 集中 在 词汇 特征 和 句法 
文 与 英文 的 区 别 需 要 先 对 故障 文本 进行 分 词 ， 才 能 做 进一步 的 。” ”特征 的 提取 上 , 而 忽略 了 词语 之 间 的 语义 关系 , Zhang 等 人 的 为 
处 理 。 吴 烟 潇 ! We 么 是 中 文 分 词 ， 中 文 分 词 的 国内 研究 了 获得 语义 特征 ， 提 出 了 一 种 基于 word2vec 和 SVM perf 的 情 
现状 和 当前 的 研究 热点 ， 了 统计 语言 模型 ,以 及 如 何 利 用 简 感 分 类 方法 。 息 漆 明 中 提出 了 基于 关系 向 量 模型 的 句子 相似 度 
a 法 来 进行 。 计算 ， 考 上 处 句子 结构 和 语义 信息 ， 更 能 体现 句子 的 结构 和 语义 
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录用 稿 常 文兵 ， 等 : 基于 
信息 。 为 了 解决 机 器 翻译 依赖 问题 ， 同 时 仍然 利用 资源 丰富 的 Ss=M BT DT 
语言 中 的 数据 ，Tian 等 人 四 提出 联合 学 习 低 资源 语义 的 语义 文 1 2 3 4 
本 相似 性 任务 和 资源 丰富 语义 的 语义 文本 相似 性 任务 ， 该 任务 图 1 重复 有 间隙 型 序列 模式 示例 
仅 依 赖 于 多 语言 词语 嵌入 。 本 文 第 二 部 分 是 构建 序列 模式 挖掘 1.1 相关 概念 与 定义 
算法 ， 也 是 本 文 核心 部 分 。 序 列 模式 挖掘 是 数据 挖掘 的 一 个 重 下 面 定义 了 概念 与 符号 ， 便 于 对 后 面 步 又 进行 准确 描述 : 
要 领域 ， 苗 雪 连 外 描述 了 间隙 约束 序列 挖掘 的 分 类 及 研究 现状 ， 在 故障 序列 模式 挖掘 过 程 中 定义 最 小 相似 度 阔 值 、 最 小 频 
给 出 了 间隙 约束 的 序列 模式 挖掘 在 实际 生活 中 的 发 展 趋势 并 认 ， 繁 度 阔 值 、 最 大 事件 窗口 浆 值 、 最 小 支持 度 阔 值 和 最 小 共 现 度 
为 在 未 来 的 研究 领域 中 ,具有 间隙 约束 的 序列 模式 挖掘 仍 是 一 闵 值 。 其 中 最 小 相似 度 闵 值 指 文本 信息 划 归 为 同一 类 的 最 低 要 
个 重要 的 研究 方向 。 求 ， 划 归 成 的 类 称 为 相似 事件 集 ; 最 小 频繁 度 闵 值 指 相 似 事件 
基于 模式 增长 的 序列 模式 挖掘 〈FreeSpan) 的 初步 研究 ， 集中 最 小 事件 个 数 ， 对 于 低 于 最 小 频繁 度 闵 值 的 事件 集 ， 认 为 
Krishna0q 提 出 了 一 种 更 有 效 的 方法 ， 称 为 PSP， 用 于 高 效 挖掘 这 类 故障 极 少 发 生 ， 不 做 考虑 ， 达 到 最 小 频繁 度 阔 值 的 事件 集 
顺序 模式 ,Le 等 人 tH 研究 了 频繁 闭合 和 发 生 器 序列 的 开采 任务 ， ” 称 为 频繁 事件 集 ， 最 大 事件 窗口 闵 值 避免 了 挖掘 出 来 的 故障 序 
因为 与 频繁 序列 集合 相 比 ， 频 繁 闭合 和 发 生 器 序列 的 基数 通常 列 模式 中 事件 之 间 相 隔 过 多 ， 事 件 之 间 关 联 度 很 小 ， 对 预防 性 
远 低 于 频繁 序列 的 基数 。 针 对 数据 集 的 增多 ， 约 束 频繁 模式 树 维修 指导 性 不 够 的 情况 ;最 小 支持 度 阔 值 指 频繁 事件 集 之 间 关 
的 构建 存在 一 定 的 缺陷 ， 约 束 频 繁 模式 树 很 难 应 用 于 海量 数据 。”” 联 程度 最 低 要 求 ， 最 小 共 现 度 阔 值 避免 了 挖掘 出 来 的 故障 序列 
集 ，Yan 等 人 [2 使 用 MapReduce 编程 模型 提出 了 一 种 被 称 为 模式 只 在 小 部 分 产品 中 频繁 发 生 ， 不 具有 普遍 性 的 情况 。 
PACFP 的 约束 频繁 模式 的 并 行 挖掘 算法 。 武 优 西 等 人 53 采用 模 a) 事 件 。 事件 记 做 e,， 满 足 ，ei E p 其 中 为 是 事件 集合 。 
式 匹配 技术 ， 在 一 遍 扫描 序列 数据 库 的 情况 下 ， 建 立 其 所 有 超 每 个 事件 有 一 个 事件 时 间 标 识 ， 表 示 事 件 的 顺序 。 
模式 的 不 完整 网 树 森 林 ， 并 对 这 些 超 模式 的 支持 率 进行 有 效 地 b) 事 件 序列 。 序列 记 做 ei: ej, 其 中 e;、ej 表 示 事 件 i 与 j。 
计算 ， 进 而 挖掘 出 所 有 频繁 模式 ， 有 效 地 提高 了 序列 模式 挖掘 一 个 序列 中 的 事件 有 时 间 先 后 关系 ，e 出 现在 eg 之 前 。 
速度 。 Mooneyl4 专 注 于 数据 挖掘 的 子 领域 序列 模式 挖掘 ， 研 究 c) 事 件 窗口 。 事 件 窗口 记 做 wini ， 表 示 事 件 序 列 ei > ej 之 
迄今 为 止 提出 的 方法 和 算法 。Aloysius 05 提 出 了 一 种 使 用 间 间 隔 的 事件 数目 。 
PrefixSpan 算法 挖掘 用 户 购买 模式 的 方法 ， 并 根据 采购 模式 的 dd) 事件 相似 度 。 事 件 相 似 度 记 作 Xi;， 表 示 事 件 i 与 j 之 间 
顺序 将 产品 放置 在 货架 上 。Wrightts1 使 用 顺序 模式 挖 气 来 自动 相似 的 程度 。 
推断 药物 之 间 的 时 间 关 系 ， 可 视 化 这 些 关 系 ， 并 生成 规则 以 预 e) 相 似 事件 集 。 相 似 事件 集 记 做 SESk = [ef, eZ,.…,e#]， 其 
测 可 能 为 患者 开具 的 下 一 个 药物 。 中 ek 表示 相似 事件 集 5ES% 中 的 i 事件， 集合 中 任意 两 个 事件 均 
于 本 文 挖掘 数据 是 文本 信息 ， 故 障 序列 模式 的 挖掘 算法 ”满足 最 小 相似 度 阔 值 min_sim。 相 似 事 件 集 中 的 所 有 事件 被 认 
较 传 统 序列 模式 挖掘 算法 发 生 了 很 大 变化 。 首 先是 对 文本 数据 ”” 定 为 同一 类 事件 。 
的 结构 化 处 理 ， 对 不 同 描述 的 同一 类 故障 归 类 ， 找 出 相似 项 全 相似 事件 集 频繁 度 。 事 件 频繁 度 记 做 freq(k)， 是 指 相 
集 ; 之 后 根据 研究 对 象 的 特点 在 故障 序列 模式 挖掘 过 程 中 定义 ”” 似 事件 集 5E55x 中 事件 的 个 数 。 
最 大 事件 窗口 阔 值 和 最 小 共 现 度 阔 值 ， 在 此 基础 上 构建 了 故障 8 频繁 事件 集 。 当 相似 事件 集 5ESx 中 事件 的 个 数 freq(k) 大 
序列 模式 挖掘 的 算法 框架 于 或 等 于 min_freq 时 ， 相 似 事 件 集 5ESx 被 认定 为 频繁 事件 集 ， 
记 作 FESi = [ef,e#,...,er]。 其 中 min_freq 表示 最 小 频繁 度 六 
1 “研究 方法 
针对 故障 文本 进行 挖掘 的 序列 模式 为 重复 有 间 际 型 序列 模 h) 序 列 支 持 度 。 若 存在 事件 序列 ef 一 ef ，e?、@7 分 别 表示 
式 ， 其 中 间隙 是 指 两 个 事件 之 间 不 是 必须 紧 换 。 因 为 不 一 定 连 。 ”i 和 j 事件 ， 分 别 属于 频繁 事件 集 FES。、FESq， 且 winij 小 于 或 
续 两 次 故障 之 间 才 存在 因果 关系 ， 所 以 考虑 一 定 间隔 内 按 次 序 ”等 于 最 大 事件 窗口 阔 值 max_wim， 则 认定 序列 模式 ”pq 的 
发 生 的 故障 序列 更 符合 实际 。 以 图 1 所 示 序列 模式 为 例 ， 假 设 ”支持 度 加 一 ， 序 列 模式 支持 度 记 作 swp(p 一 q)， 具 体 计 算 过 程 
最 大 间隙 为 2， 则 对 于 序列 A ” B, 用 元 素 的 位 置 表示 来 代表 序 。 如 后 所 示 。 
列 关系 , 则 Si 中 ,13，2 一 3，6 一 7，6- 8 满足 条 件 ， 记 1 序列 的 共 现 度 。 一 个 序列 p ”4 的 共 现 度 是 指 该 序列 出 现 
录 4 次 ，Sz 中 1 ”2 满足 条 件 ， 记 录 1 次 ， 两 条 序列 中 共 记 录 5 ”在 不 同 产 品 的 个 数 , 序列 p 一 q 共 现 度 可 以 表示 为 occ(p > q)。 
次 。 如 果 两 事件 满足 一 定 事件 间隔 要 求 ， 则 两 事件 序列 模式 的 序列 模式 (sequential pattern )。 序 列 p 一 9 是 一 个 序列 模 
支持 度 加 一 。 式 , 当 且 仅 当 满足 以 下 三 个 约束 条 件 : ajp 、q 都 是 满足 min_freq 
5 四 国 四 加 全 国人 全 的 FES; b)sup(p 一 q) 2min_sup; cocc > q) >min_occ。 其 
posiion | 2 3 4 5 6 7 8 中 min_sup 指 最 小 支持 度 阔 值 ，min_occ 指 最 小 共 现 度 阔 值 
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1.2 文本 相似 度 衡 量 模型 
于 自然 语言 的 特性 ， 不 同 个 体 对 同一 件 事情 的 描述 可 能 
有 所 差别 ， 完 全 相同 的 文本 信息 很 少 ， 进 而 难以 找 出 故障 序列 
模式 。 先 对 故障 文本 描述 进行 相似 度 的 衡量 ， 以 更 好 的 完成 序 
列 模式 的 挖掘 。 
1.2.1 文本 预 处 理 

使 用 语言 模型 进行 自然 语言 处 理 是 建立 在 词 的 基础 上 的 而 
对 于 中 文 ， 词 之 间 没 有 明确 的 分 界 符 。 因 此 需要 先 对 故障 文本 
进行 分 词 ， 才 能 做 进一步 的 自然 语言 处 理 。 分 词 结果 中 存在 一 
些 区 分 度 不 高 的 介词 ， 连 词 ， 标 点 符号 等 ， 为 了 更 好 地 衡量 文 
本 相似 度 ， 需 要 进行 去 停 用 词 的 处 理 ， 经 过 分 词 的 结果 进行 去 
停 用 词 的 处 理 。 
1.2.2 文本 向 量化 
司 的 分 布 式 表 示 是 指 一 个 稠密 的 低 维 的 实数 向 量 。 例 如 
[0.792, -0.177, -0.107, 0.109, -0.542, ...]。 利 用 Doc2Vec 模型 将 
每 一 个 分 完 词 的 句子 被 映射 成 一 个 独立 的 向 量 ，Doc2Vec 模型 
能 表示 词 和 词 之 间 的 语义 关系 ， 考 虑 了 词 的 先后 顺序 , 能 够 很 
好 地 将 文本 向 量化 。 本 文 使 用 的 Doc2Vec 训练 模型 如 下 : 


model = Doc2Vec(sentences, 


和 
| 


size, window, min count, 


workers, min alpha) 


其 中 sentences: 


句子 库 ; size: 特征 向 量 维度 ; window: 
要 预测 的 词 和 文档 中 用 来 预测 的 上 下 文 词 之 间 的 最 大 距离 ; 
alpha: 初始 学 习 速 率 ; min_count: 忽略 总 频数 小 于 此 的 所 有 的 
用 来 训练 模型 的 电脑 线程 数量 。 


词 ; workers: 

1.2.3 相似 度 计算 
对 于 已 经 向 量化 的 文本 ， 我 们 利用 余弦 相似 度 进行 文本 之 

间 相 似 度 计 算 ， 余 弦 相 似 度 通过 测量 两 个 向 量 的 夹 角 的 余弦 值 


来 度量 它们 之 间 的 相似 性 。 计 算 公式 如 下 : 
imilari Piei(AixBi) 
similarity = : 
EECDzx TaD 出 


其 中 : A 和 B, 分 别 代 表 向 量 A 和 B 的 各 分 量 。 由 相似 
度 衡 量 的 特性 , 可 知 相似 度 和 矩阵 是 对 角 线 上 均 为 1 的 对 称 矩 阵 。 
1.3 ”算法 流程 

本 算法 设计 流程 如 下 主要 包括 建立 故障 文本 相似 度 衡量 模 
型 和 设计 故障 序列 挖掘 算法 两 部 分 。 在 故障 文本 相似 度 衡量 之 
前 ， 首 先 要 对 故障 文本 信息 进行 相关 处 理 。 在 此 基础 上 进行 故 
障 序列 模式 挖掘 ， 最 后 通过 实例 验证 该 算法 算法 。 设 计 流程 如 
图 2 所 示 。 


| 


2 ”算法 构建 


算法 主要 包括 两 部 分 ， 一 是 在 文本 相似 度 衡量 基础 上 进行 
频繁 事件 集 的 挖掘 ， 二 是 在 频繁 事件 集 基 础 上 进行 故障 序列 模 
式 挖 掘 。 
2.1 频繁 事件 集 挖 掘 
2.1.1 算法 描述 

a) 通 过 故障 文本 相似 度 衡量 模型 得 到 如 表 1 所 示 的 相似 


Ghinaxiy 合 作 期 刊 


 : 基于 文本 分 析 的 故障 序列 模式 挖掘 


度 矩 阵 。 


故障 文本 信息 


故障 文本 信息 处 理 


故障 文本 相似 度 衡量 


| 


故障 序列 模型 挖掘 


| 


| 实例 验证 


图 2 本 文 算法 设计 流程 
表 1 文本 相似 度 矩 阵 


n 或 Xa si 1 
中 Xij 表 示 事 件 i 与 事件 j 的 相似 度 ,显然 当 i=j 时 Xij=1。 
b) 找 出 相似 事件 集 , 给 定 最 小 相似 度 阔 值 min_sim 及 式 (2)。 


Xij min_sim, Xi; = 1 
| <min_sim, Xi;=0 


GO) 


过 式 (2) 转换 得 到 如 表 2 所 示 的 相似 事件 集 矩 阵 。 
表 2 转化 后 的 相似 度 窍 阵 


吕 


事件 1 2 su n 
1 1 0 或 1 0 或 1 
2 0 或 1 1 0 或 1 
n 0 或 1 0 或 1 i 1 


显然 矩阵 中 值 为 1 代表 两 事件 为 相似 事件 ， 属 于 同一 事件 
时 合 ， 值 为 0 代表 两 事件 不 相似 ， 从 而 找 出 相似 事件 集 SESk。 
c) 找 出 频繁 项 目 集 ， 下 面 计算 相似 事件 集 频 繁 度 : 
Freqp = 二 人 1 Xu ,bp = 1,2,...,n (3) 
其 中 Xij 表 示 时 间 i 与 事件 j 的 相似 度 , Xij=1 或 0，freqp 表 示 第 
de 的 事件 个 数 。 
定 最 小 频繁 度 阔 值 min_freg， 
freq, > min_Freqg， 磊 房 表 信德 
freqp <min_freq， 去 雁 盘 作物 p 
干 频繁 事件 集 FESi。 


J 


(4) 


根据 式 (4) 得 到 若 
2.1.2 算法 流程 
频繁 事件 集 挖掘 算法 ， 


流程 如 图 3 所 示 。 
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| 文本 相似 度 衡量 | 
| 相似 事件 集 | 
| 频繁 事件 集 | 
图 3 频繁 事件 集 挖 气流 程 
2.2 ”序列 模式 挖掘 
2.2.1 算法 描述 
a) 对 所 有 频繁 事件 集 FESx 中 的 事件 按照 飞机 ID 进行 划分 ， 
划分 结果 如 表 3 所 示 。 
表 3 频繁 事件 集 
ID 
FES 
1 n 
1 ez Bi 
2 eb ens 
其 中 ef 表示 发 生 在 第 i 为 a 个 故障 事件 ， 并 且 
故障 事件 7 属于 频繁 事件 集 p。 
b) 对 单 架 飞 机 进行 故障 序列 模式 挖掘 ， 方 法 如 下 ; 
在 第 i 架 飞 机 中 ， 对 于 频繁 事件 集 p 与 频繁 事件 集 4 中 的 
故障 序列 ，p 中 的 故障 事件 为 ep ，4 中 的 故障 事件 为 e% ， 给 定 
最 大 窗口 事件 max_wi， 


if: winasp < max_win, | 


sup(p > 9)= sup(p > 9)+1 
occ(p > 9q)=occ(p > 9)+1 


事件 数 ，sup(p 


其 中 wino_ ,sp 表示 故障 a、b 之 间 间 隔 的 故障 
一 9) 表示 序列 模式 p 一 9 的 支持 度 ，occ(p 一 9) 表示 序列 模式 p 


G5) 


一 9 的 共 现 度 。 

利用 该 方法 ,算出 序列 模式 p > q 在 该 染 飞 机 上 的 的 支持 度 
和 共 现 度 。 依 次 迭代 ， 计 算出 所 有 频繁 事件 集 之 间 序 列 模式 的 
支持 度 和 共 现 度 。 

9 人 迭代 步骤 b)， 依 次 对 每 架 飞 机 进行 故障 序列 挖掘。 将 序 
列 模式 在 不 同 飞机 上 的 支持 度 、 共 现 度 累加 。 

gj) 检验 各 序列 模式 是 否 满足 最 小 支持 度 闷 值 、 最 小 共 现 度 
闷 值 。 对 于 序列 模式 p 下 q， 若 满足 式 (6) 

4 >» 9) > min_sup (0) 


其 中 min_sup 表示 最 小 支持 度 闵 值 ，min_occ 表示 最 小 共 现 


occ(p > 9) > min_occ 


闵 值 ， 则 认定 序列 模式 p 一 q 成 立 。 
2.2.2 算法 流程 


序列 模式 挖掘 算法 流程 如 医 


4 所 示 。 


度 


单 架 飞机 进行 序列 
模式 挖掘 


ChinaX 
于 文生 分 


的 二 障 序列 


繁 事件 集 间 


hea 


故障 序列 模式 支持 
度 加 一 


故障 序 胸 


对 所 有 飞机 进行 挖 
据 


故障 序列 模式 


ya 合 舍 天 


模式 共 现 
度 加 一 


< > 


妈 4 序列 模式 挖掘 流程 


3 ”实例 验证 
使 用 某 型 3 架 飞 机 共计 20 条 故障 情况 文本 信息 作为 实例 
对 象 ， 其 中 第 1 架 飞 机 和 第 2 架 飞 机 分 别 有 7 条 故障 情况 文本 
者 述 ， 第 3 台 产 品 有 6 条 故障 情况 文本 描述 ， 需 要 在 其 中 找 出 
故障 序列 模式 。 对 应 产品 ID 和 故障 序号 在 表 4 中 列 出 。 
表 4 故障 文本 描述 
ID 
1 六 3 
FES 
4 发 滑 油 散热 ” 3 发 滑 油 散 
2 发 滑 油 散热 
1 器 蜂窝 结构 渗 热 器 蜂窝 结 
器 蜂窝 孔 渗 油 
油 构 漏 油 
4 发 滑 油 散热 2 发 滑 油 散 
起 动 发 电机 起 
2 器 蜂窝 结构 渗 热风 门 不 工 
动 电流 超 差 
油 作 
3 发 滑 油 散热 ” 3 发 滑 油 散热 ” 4 发 滑 油 散 
3 器 风门 电机 有 ”器 蜂窝 结构 漏 ” 热 器 蜂窝 结 
卡 滞 现 象 油 构 漏 油 
无 线 电 高 度 表 ”2 发 滑 油 散热 ”4 发 航 前 起 
4 
照明 灯 不 亮 器 蜂窝 孔 渗 油 ” 动 电流 差 大 
无 线 电 高 度 表 ”2 发 滑 油 散 
2 发 滑 油 散热 
5 指示 器 照明 灯 “” 热 器 蜂窝 孔 
器 风门 不 工作 
不 亮 渗 油 
右 1 组 油 量 表 3 发 滑 油 散 
2 发 滑 油 散热 
6 传感器 多 指 热风 门 不 能 
风门 不 工作 
1000KG 动 关闭 
3 发 滑 油 散 热 
3 发 散热 器 蜂 
7 器 蜂窝 结构 漏 
窝 结构 漏 油 
油 
3.1 文本 预 处 理 


故障 文本 示例 如 表 5 所 示 。 
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表 5 故障 文本 示例 


故障 情况 文本 (共计 20 条 ) 


2 发 滑 油 散热 器 蜂窝 孔 渗 油 

4 发 滑 油 散热 器 峰 离 结构 渗 油 

3 发 滑 油 散热 器 风门 电机 有 卡 滞 现 象 
无 线 电 高 度 表 照明 灯 不 亮 


对 故障 文本 进行 分 词 、 去 停 用 词 ， 利 用 
jieba 分 词 包 进行 处 理 ， 得 到 结果 如 表 6 所 示 。 
表 6 预 处 理 之 后 的 文本 


Python 语言 中 的 


故障 情况 文本 


7 na YA, 


2V 发 滑 油 // 散热 器 / 
4/ 发 滑 油 // 散热 器 / 
3V 发 滑 油 / 散热 器 / 


蜂窝 / 孔 / 渗 油 
蜂窝 / 结构 // 渗 油 
风门 // 电机 / 有 卡 滞 / 现象 


无 线 电 / 高 度 表 / 照明 / 灯 不 亮 
3.2 ”计算 故障 文本 相似 度 
运用 Doc2Vec 模型 进行 文本 表示 , 其 中 模型 参数 选择 如 下 : 


model=Doc2Vec(sentences, size=10,window=3,min_count=3, workers=4, 


min_alpha=0.002) 


使 用 余弦 相似 度 来 进行 相似 度 的 衡量 ， 结果 如 下 : 

1 0391 0.025 … 0 1 0.008] 
0391 1 0.028 … 0.182 0.391 0.009 
0.025 0.028 1 |. 0 0.025 0.108 

0 0182 0 ... 1 0 0 

1 0391 0.025 … 0 1 0.008 
[0.008 0.009 0.108 .… 0 0008 1 | 

3.3 故障 频繁 项 目 集 挖掘 


设 定 最 小 相似 度 阔 值 min_sim = 0.8， 将 故障 文本 描述 的 


相似 度 矩 阵 转 化 为 0-1 矩阵 来 方便 频繁 度 的 计算 ,维度 为 20x20 
的 0-1 矩阵 如 下 : 
[1 0 0 0 1 0| 
0 1 0 0 0 0 
0 0 1 0 0 0 
0 0 0 0 
100 .1.0 10 
I0 00 1...001| 
各 条 故障 文本 描述 的 频繁 度 为 : [3, 3, 1, 2, 3, 1, 4, 3, 1, 4, 3， 


2, 3, 1, 4, 3, 6, 1, 3, 1]。 
设 定 最 小 频繁 度 闷 值 min_freq =3， 则 利 ) 


] 伪 代码 程序 计算 


常 文兵 
7 7 10 [15, 17] 
8 2 8 17 
10 7 10 [15, 17] 
11 1 11 19 
13 5 13 16 
15 7 10 [15, 17] 
16 5 13 16 
17 [2,7] [8, 10] [15, 17] 
19 1 11 19 

3.4 序列 模式 挖掘 


设 定 最 大 事件 窗口 阔 值 


max_win=4， 最 小 支持 度 阔 值 


min_sup=4， 产 品 最 小 共 现 度 病 值 min_occ=2， 利 用 伪 代 码 程序 


计算 可 以 得 到 挖掘 


出 故障 序列 模式 ， 结 果 如 表 8 所 示 。 


表 8 故障 序列 模式 挖掘 结果 


序列 模式 前 向 故障 


后 向 故障 


可 以 得 到 频繁 事件 集 文本 序号 为 [1, 2, 5, 7, 8, 10, 11, 13, 15, 16， 
17, 19]。 
相似 频繁 项 目 集结 果 如 表 7 所 示 。 
表 7 频繁 事件 集 
飞机 ID 
1 2 3 
1 1 11 19 
2 2 8 17 
5 5 13 16 


sup occe 
4 发 滑 油 散热 器 峰 离 2 发 滑 油 散热 器 蜂窝 
1 173 4 2 
结构 漏 孔 渗 让 
发 滑 油 散热 器 蜂窝 2 发 滑 油 散热 器 蜂窝 
2 17 一 11 4 2 
结构 漏 让 L 渗 
发 滑 油 散热 器 蜂窝 2 发 滑 油 散热 器 蜂窝 
3 17= 19 4 2 
结构 漏 让 孔 活 
可 以 得 到 ， 满 足 条 件 的 序列 模式 为 {“4 发 滑 油 散热 器 蜂窝 


结构 漏 油 ”一 “2 发 滑 ; 
支持 度 和 共 现 度 的 结果 来 看 ， 
生 4 次 , 在 2 架 飞 机 上 出 现 过 。 


该 故障 序列 关系 是 客观 存 的 。 根 据 结果 来 看 ， 在 产品 


障 过 程 中 ,如 果 有 发 动机 的 滑 油 


各 个 发 动机 的 滑 油 散热 器 都 应 该 去 做 检查 ， 


散热 器 蜂窝 孔 渗 油 ”}， 根 据 序列 模式 
在 该 算法 框架 下 该 序列 模式 


BD 
~ 信 


通过 与 文本 数据 验证 ， 找 出 的 
的 维修 保 
散热 器 发 生 漏 油 或 渗 油 等 问题 ， 


改 到 防 患 于 未 然 。 


其 表达 形式 各 异 ， 结 构 化 程度 差 ， 
现 有 的 序列 模式 挖掘 算法 不 能 直接 对 文本 数据 进行 控 


据 。 针 对 


埋 息 ， 本 文 提 出 了 一 种 基本 
式 挖 气 算法， 其 与 现 有 方法 的 区 别 如 下 : 


F 文本 相似 度 衡量 的 故障 序列 模 


a) 由 于 文本 信 


3 


息 的 特殊 性 ， 相 同 信 息 的 表达 千差万别 ， 


本 文 提出 的 文本 相似 度 衡量 模型 ， 可 以 有 效 的 将 相同 意义 的 故 
障 文本 归 为 一 类 ， 将 结构 化 程度 差 的 文本 数据 整合 归 类 ， 在 此 


基础 上 进行 序列 模式 挖掘 。 
b) 本 文 针 对 文本 数据 提出 


了 最 小 频繁 度 概 念 , 针对 序列 模 


式 挖 掘 提出 了 最 大 事件 窗 
挖掘 出 的 序列 模式 是 普遍 
实例 验证 表明 , 本 文 提 


、 最 小 共 
遍 存在 的 。 
出 的 算法 是 正确 有 效 的 , 对 于 


现 度 两 个 概念 ， 可 以 确保 


于 识别 


故障 时 间 关 系 ， 进 行 故障 预测 和 维修 决策 提供 支持 。 
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